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BẢN HÒA TẤU 
DỮ LIỆU XÃ HỘI 


` NHÀ XUẤT BẢN KHOA HỌC XÃ HỘI 





CÁC NỘI DUNG CHÍNH 


°_ Lý thuyết 
|... Tại sao thống kê Bayesian cấp thiết? 
2. Thống kê Bayesian là gì? 
3. Chương trình máy tính bayesvl là gì? 
4. Hỏi và đáp 

° - Thực hành 
I... Ứng dụng chương trình máy tính bayesvl như thế nào? 
2. Các bước thực hiện phân tích Bayesian là gì? 
3. Đánh giá và đọc hiểu kết quả như thế nào? 
4. Hỏi và đáp 

-_ Ứng dụng 
|... Bayesian Mindsponge Framework (BMF) 


2. Hỏi và đáp 





TẠI SAO THỐNG KẾ BAYESIAN CẤP 
THIẾT? 


- Tình trạng nghiên cứu không thể tái xác lập trong khoa học xã hội 
o Sự hay thay đồi của p-value 
o Các thói quen nghiên cứu không lành mạnh: p-hacking, đêm sao 
(stargazing), và HARKi¡ng. 
o Sự phức tạp trong nghiên cứu xã hội (luôn tôn tại sự không chắc 
chăn) 
-> Khả năng cập nhật kết quả dựa trên bằng chứng mới 
° Tận dụng được sức mạnh của toán học và sức mạnh máy tính (thuật 
toán Monte Carlo Markov Chain) 
° Giúp cho nhà nghiên cứu tinh chỉnh suy luận linh hoạt 


- Thể hiện được sự rõ ràng về sai lệch ước tính thông qua hình vẽ 


THÓNG KÊ BAYESIAN LÀ GÌ? 


- Được đặt theo tên của nhà toán học người anh Thomas Bayes vào thế kỷ 18 


-_ Suy luận Bayes đưa ra xác suất hậu nghiệm (Posterior Probability) là hệ quả của 
hai tiền đề: xác suất tiền nghiệm (Prior Probability) và hàm khả năng (Likelihood 
Function). 

P(D|6)P(0) 


© 8 là giả thiết cần đánh giá, hệ số cần xác định mà xác suất của nó chịu ảnh hưởng 
của dữ liệu quan sát 


o D là dữ liệu quan sát được, số liệu thu được từ thực nghiệm 
© P(0) là xác suất tiền nghiệm 
© P(DỊ6) là xác suất quan sát được dữ liệu D với điều kiện Ø 


ö P(Đ) thường gọi là khả năng biên (Marginal Likelihood). 





PredIell0n er0r 
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Uncertainty 


Expectatlori Estimtate  Reallty 





CÁC KHÓỎ KHĂN KHI ỨNG DỤNG THỐNG KẼ 
BAYESIAN LÀ GÌ! 


°_ Trở ngại vật lý: 


©_ Yêu câu năng lực tính toán mạnh của máy tính Đầu đã giải 
"`"... .. : uyết được 
©_ Thiễu các phân mềm và chương trình E27 


5 _ Trở ngại tâm lý: 


© Ngại Toán học 


Vấn đề nan 


©_Ngại lập trình giải hiện nay 


© Ngại thoát khỏi vùng an toàn 





CHƯƠNG TRÌNH MÁY TÍNH BAYESVL 
LÀ GÌ? 


- Chính thức xuất bản trên Comprehensive R Archive Network (CRAN) 
ngày 24-5-2019 (v0.8.3) 
—> hffbs://cran.r-projJect.org/web/packages/bayesvl/index.htmli 
- Hiện tại chương trình đang được đánh số phiên bản v.0.9 (github) 
—> hffps://github.com/sshpa/bayesvl 


R LÀ GÌ? 


- _R & RStudio: R là nền tảng ngôn ngữ lập trình phục vụ tính toán thống kê. Ngôn 
ngữ R được sử dụng rộng rãi bởi các nhà thống kê học, các nhà khai thác dữ liệu 
nhằm phát triển các phần mềm (gọi là các package) thống kê và xử lý dữ liệu. 





TÍNH CHÁT GIÁO DỤC VÀ HỌC THUẬT CAO 


° Chức năng xây dựng cây quan hệ (“relationship tree”) hay sơ đồ logic. 
o Hỗ trợ tư duy xây dựng mô hình nghiên cứu 
o Dễ sử dụng và tái lập mô hình phân tích 
- Kết quả được trực quan hóa có độ thầm mỹ cao 
o Hỗ trợ đọc hiểu kết quả thông qua hình vẽ 
- Hỗ trợ nhiều chức năng phân tích 
© Tương thích cao với các phần mềm liên quan khác, như ggplot2, Loo, etc. 


o Cho phép thực hiện các nghiên cứu có độ phức tạp cao, như mô hình đa tầng, 
mô hình phi tuyến tính, v.v. 





(0; >0?1:0) 
Test = c(0. 1) 


HỢP) Observations 


@® Transformed data 


@® Outcome 


— =* Transform 


——> legression 


TÍNH CHÁT GIÁO DỤC VÀ HỌC THUẬT CAO 


- Chức năng xây dựng cây quan hệ (“relationship tree”) hay sơ đồ logic. 
o Hỗ trợ tư duy xây dựng mô hình nghiên cứu 
o Dễ sử dụng và tái lập mô hình phân tích 
° Kết quả được trực quan hóa có độ thầm mỹ cao 
o Hỗ trợ đọc hiểu kết quả thông qua hình vẽ 
- Hỗ trợ nhiều chức năng phân tích 
© Tương thích cao với các phần mềm liên quan khác, như ggplot2, Loo, etc. 


o Cho phép thực hiện các nghiên cứu có độ phức tạp cao, như mô hình đa tầng, 
mô hình phi tuyến tính, v.v. 








Params 
[_] b AgeGroup_MoveCiy 


b_Education_ MoveCity 
b Gender_MoveCity 


density 





value 


Phân phối xác suất hậu nghiệm (Posterior density plot) 





TÍNH CHÁT GIÁO DỤC VÀ HỌC THUẬT CAO 


- Chức năng xây dựng cây quan hệ (“relationship tree”) hay sơ đồ logic. 
o Hỗ trợ tư duy xây dựng mô hình nghiên cứu 
o Dễ sử dụng và tái lập mô hình phân tích 
- Kết quả được trực quan hóa có độ thầm mỹ cao 
o Hỗ trợ đọc hiểu kết quả thông qua hình vẽ 
° Hỗ trợ nhiều chức năng phân tích 
© Tương thích cao với các phần mềm liên quan khác, như ggplot2, Loo, etc. 


o Cho phép thực hiện các nghiên cứu có độ phức tạp cao, như mô hình đa tầng, 
mô hình phi tuyến tính, v.v. 
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Data point 


Kiểm định PSIS-Loo 





*** HỎI VÀ ĐÁP *** 


CHƯƠNG TRÌNH MÁY TÍNH BAYESVL 
ĐƯỢC ỨNG DỤNG NHƯ THẾ NÀO? 


https:/wWww.sciencedirect.com/science/article/pii/S22 l 501áó120301448?via%3Dihub 





BÀI TOÁN 


‹ https:/www.mdbpi.com/1 660-4601/18/7/3681/htm 
- Các bước chuẩn bị: 


lỆ 
. Mở Rstudio 

. Tạo R script (không dùng trực tiếp code trên console) 
. Lên mô hình ban đầu 

.. Tham khảo kỹ hướng dẫn trong sách/protocol 


Œ1 +> C2 


Chuẩn bị dữ liệu 











¬ Bước 1 ¬ 
Bước 2 

r b Đánh giá mô hình 
CAC BƯƠC 
THỰC Hị ẸEN 
PHÂN TÍCH 

s. Bước 3 
Đọc kết quả 
Bước L____„ 








BƯỚC 1: XÂY DỰNG MÔ HÌNH/CÂY QUAN HỆ 


—_. 


Tạo dựng các biến 
Tạo dựng mỗi liên hệ giữa các biên 


Tạo ngôn ngữ Stan 


 n. 


Thực hiện mô phỏng/phẩn tích 


BƯỚC 2: ĐÁNH GIÁ MÔ HÌNH 





mm SAaANA 
Bước mô phỏng Markeov 
( Traceplot) 
Đô thị Gelman 
(Gelman plot) 
Đô thị tự tương quan 
(Autocorrelation plot) 


bvl_ plotTrace() 
bvl_ plotGelmans() 


bvl_ plotAcfs() 


Ngoài ra, hàm bvl_stanLoo() cũng có thể dùng để đánh giá độ phù hợp của 
mô hình thống kê. 


BƯỚC 3: ĐỌC KÉT QUÁ 
- Khi đọc kết quả cân chú ý tới 3 yếu tố: 
- n_eff: mẫu độc lập (effective sample size) 
- Rhat: chỉ số Gelman 
- Mean và standard deviation: phân phối của mô phỏng hậu nghiệm 


NhGE=== SE" tý fta *-  RMASE-,7NERHENEE =—~,., 2à c—==e. 


Phân phối mật độ 


[DErglis? silbij bvl_ plotDensity() 


Phân phối mật độ theo khoảng 


flrtssllslsxỷ bvl_ plotlntervals() 


Phân phối tân suất 

IEsusun slðiÐ bvl_ plotParams() 

Phân phối mật độ trên mặt phẳng 2D 
(2D Density plot) 


Phân phối mật độ tương quan giữa các biến bvl_plotPairs() 
(Pairs plot) 


bvl_ plotDensity2d0 





BƯỚC 4: SO SÁNH MÔ HÌNH 


- Đề so sánh mô hình hàm bvl_stanWAIC(0 và bvl_compareWAIC() có 
thê để so sánh mức độ phù hợp giữa 2 mô hình. 

- Ngoài ra, bayesvl đã được điều chỉnh để tương thích với các mẫu 
code so sánh mức độ phù hợp giữa các mô hình của phần mềm Loo 


(Pareto smoothed importance-sampling leave-one-out cross-validation 
(PSIS-LOO)) 


*** HỎI VÀ ĐÁP *** 


BMTF: BAYESIAN MINDSPONGE 
FRAMEWORK LA GI? 


- Phương pháp nghiên cứu khoa học kết hợp giữa cơ chế 
thông tin Mindsponge và chương trình bayesvl. Hay còn gọi là 
Bayesian Mindsponge analytical approach. 

- Cơ chế thông tin Mindsponge giúp tạo nền tảng lập luận và 
cách xử lý dữ liệu 

- Thông kê Bayesian giúp xử lý các mô hình phức tạp nhưng 
vẫn đảm bảo độ chính xác 

= Phương pháp sử dụng quy tắc parsimony (Occam's razor, 
principle of parsimony, law of parsimony) 


=> “Entities should not be multiplied beyond necessity" 


Emerging cultural values 
(or new information) 


Mindset 


Comfort zone 
(or buffer zone) 


Cultural and ideological setting 
(or environment) 


Trust evaluators 
(or cost-benefit judgements) 
3D Multiple Filters 
Inductive Attitude 


Inappropriate cultural values 
(or waning information) 





Cơ chế thông tin Mindsponge 





International Students' Domestic Students' 
Mindsponge Mindsponge 


€@ Effective help-seeking sources 
@ Suicide-related information 


@ Other types of information 





Cơ chế thông tin Mindsponge khi áp dụng vào thực tế 





*** HỎI VÀ ĐÁP *** 


CÁC BÀI TOÁN THỰC HÀNH 


°_ Mô hình có độ phức tạp thấp 


»° - Mã máy tính: https://osf.io/nmjas/ 
> Bài tham khảo: https://www.mdbpi.com/ | ó0-4ó01/18/7/3681 
° - Mã máy tính: https://osf.io/us5tr/ 
> Bài tham khảo: https://arxiv.org/abs/2 I08.00497 
° _ Mô hình có độ phức tạp thông thường 
° - Mã máy tính: https://osf.io/uczdwí 
> Bải tham khảo: https://www.mdpi.com/2254-9625/1 1/2/34 
° _ Mô hình có độ phức tạp cao 
* - Mã máy tính: https://github.com/sshpa/bayesvl/blob/master/examples/simulation_example.R 
> Bài tham khảo: https:/www.nature.com/articles/s4 | 599-020-0442-3 





References 


1h, 


2. 


c9 ng 


© 


10. 


11. 
12. 


IS), 


Hi 


IS, 


16. 


17. 


18. 


19. 
20. 


Hoàng VQ, Phương LV, Trung T, Hoàng NM, Toàn HM. (2021). Bản hòa tấu dữ liệu xã hội. Nxb Khoa học Xã hội, Hà Nội. ISBN: 978-604-308-549-5. Retrieved 
from: https://books.qoogle.com/books/?id=eBU5EAAAOBAJ 
Vuong QH, La VP, Nguyen MH, Ho MT, Tran T, Ho MT. (2020). Bayesian analysis for social data: A step-by-step protocol and interpretation. MethodsX, 7, 
100924. https://doi.org/10.1016/1.mex.2020.100924 
Vuong QH, La VP, Nguyen MH, Ho MT, Ho MT, Mantello P. (2020). Improving Bayesian statistics understanding in the age of Big Data with the bayesvl R package. Software Impacts, 4, 
100016. https://doi.org/10.1016/].simpa.2020.100016 
Halsey LG, Curran-Everett D, Vowler SL, Drummond GB (2015). The fickle P value generates irreproducible results. Nature Methods, 12, 179-185. ñtfps://doi.org/10.1038/nmeth,3288 
Baker M. (2016). 1,500 scientists lift the lid on reproducibility. Nature News, 533(7604), 452-454. hiips://doi.org/10.1038/533452a 
Editorial. (2017). Promoting reproducibility with registered reports. Nature Human Behaviour, 1(1), 0034. hftps://doi.org/10.1038/s41 562-016-0034 
Kerr NL. (1998). HARKing: Hypothesizing after the results are known. Personality Social Psychology Review, 2(3), 196-217. hftpos://doi.org/10.1207/s15327957pspr0203 4 
Vuong Sụh Ho MT, La VP. (2019). 'Stargazing/ and p-hacking behaviours in social sciences: some insights from a developing country. European Science Editing, 45(2), 54- 
: $ tp N 





-and-p-hacking-behaviours-in-social-sciences-some-insights-from-a-developin 





Vuong QH. (2018). The iisueirf saidsl3e i0 of the cost of science in transition economies. Nature Human Behaviour, 2, 5. httDos://doi.org/10.1038/s41562-01/-0281-4 

Vuong QH. (2019). Breaking barriers in publishing demands a proactive attitude. Nature Human Behaviour, 3(10), 1034. Retrieved from: ñ†fps://www.natUre.corn/arficles/s41562-019- 
0667-6 

Vuong QH. (2020). Reform retractions to make them more transparent. Nature, 582(7811), 149. Retrieved from: h†tDs://www.nature.corn/arficles/d41586-020-01694-x 

Nguyen MH, Le TT, Nguyen HKT, Ho MT, Nguyen HTT, Vuong QH. (2021). Alice in Suicideland: Exploring the suicidal ideation mechanism through the sense of connectedness and help- 
seeking behaviors. International Journal of Environmental Research and Public Health, 18(7), 3681. nttps://doi.org/10.3390/iierpn180Z3681 

Vuong QH. (2016). Global mindset as the integration of emerging socio-cultural values through mindsponge processes: A transition economy perspective. In J. Kuada (Ed.), Global 
Mindsets: Exploration and Perspectives (pp. 123-140). New York: Routledge 

Vuong QH, Napier NK. (2015). Acculturation and global mindsponge: An emerging market perspective. International Journal of Intercultural Relations, 49, 354- 

367. https://doi.org/10.1016/1.ijintrel.2015.06.003 

Vuong QH, Nguyen MH, Le TT. (2021). A Mindsponge-Based Tnvestigation into the Psycho-Religious Mechanism Behind Suicide Attacks. Warsaw, Poland: De Gruyter / 

Sciendo. https://doi.org/10.2478/97885366675599 Online ISBN: 9788366675599 

Vuong QH, Nguyen MH, Le TT. (2021). Home scholarly culture, book selection reason, and academic performance: Pathways to book reading interest among secondary school students. 
European Journal of Investigation in Health, Psychology and Education, 11(2), 468-495. ñtfps://doi.org/10.3390/eiinpei 1020934 

Dunson DB. (2001). Commentary: practical advantages of Bayesian analysis of epidemiologic data. American Journal of Epidemiology, 153(12), 1222- 

1226. https://doi.org/10.1093/aje/153.12.1222 

Green PJ, tatuszyñski K, Pereyra M, Robert CP. (2015). Bayesian computation: a summary of the current state, and samples backwards and forwards. Statistics Computing, 25(4), 835- 
862. https://doi.org/10.1007/s11222-015-9574-5 

Schaffer J. (2014). What not to multiply without necessity. Australasian Journal of Philosophy, 93(4), 644-664. ñt(ps://doi.org/10.1080/90048492.2014.992447 

McElreath R. (2020). Statistical rethinking: A Bayesian course with examples in R and Stan. Boca Raton: CRC Press. 








